Gemini 1.5 Pro テクニカルレポート
https://scrapbox.io/files/6636c9c7ab524900254706c2.png
論文情報
タイトル:Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
発行日:2024年2月
著者:Gemini Team
所属:Google
日本語記事
海外記事
ポイント
Gemini 1.5 Proは、最大1000万トークンまでの入力の長文コンテキスト理解を可能にする。
つまり、オーディオ録音のほぼ1日(22時間)、1440ページの本、41070行のコード、または1秒間に1フレームのビデオ3時間を、快適に処理することができる。
https://scrapbox.io/files/65d1657eca04b600244a9fbc.png
世界で200人の話者しかいない言語(カラマン語)の翻訳も、プロンプトで提示してあげることで、その場で学習して高精度の英語への翻訳をさせることができる。
https://scrapbox.io/files/65d187f730c4730024737e82.png
ネットにはカラマン語がないため事前学習はもちろんできておらず、純粋に、入力インプットだけでその場で学習させて、どれが一番精度いいのか?というガチンコ勝負を、GPT-4-TurboとClaude (+人間)と競わせている。
公平な勝負にするため、入力トークンがGemini Proほど多くない他のLLMのために、与える資料を半分(12万token: half book)にして出している。
結果は、Gemini 1.5 Proの圧勝。
つまり、その場で学ばさせることが「一夜漬けの達人」が誕生した。
画像も動画もいける
https://scrapbox.io/files/65d18c8c5a092500231408d5.png
上は、レミゼラブルの全文を与え、手書きのイラストで質問をしたもの
下は、映画を45分食わせて、質問したもの。
どちらも良好な結果
Gemini 1.5 ProはGemini 1.0 Proを大きく上回り、27/31のベンチマークでより良いパフォーマンスを示した。
特に数学、科学、推論(+28.9%)、多言語性(+22.3%)、ビデオ理解(+11.2%)、コード(+8.9%)でのマージンを増加させた。
Gemini Ultraとの比較では、半数以上でより良い成績で、特にテキストベンチマーク(10/13)で優れた結果となった。 論文を読んで感じたこと
https://scrapbox.io/files/65d197cacb3a20002536a429.png
概要
このレポートでは、Geminiファミリーの最新モデルであるGemini 1.5 Proを紹介します。これは、数百万トークンに及ぶコンテキストから、複数の長文書類や数時間に及ぶビデオやオーディオを含む、細かな情報を回収し、推論することができる、非常に計算効率の高いマルチモーダルの専門家の混合モデルです。Gemini 1.5 Proは、モダリティを横断した長文コンテキストの回収タスクでほぼ完璧なリコールを達成し、長文QA、長ビデオQA、長コンテキストASRの最先端を改善し、Gemini 1.0 Ultraの最先端パフォーマンスに匹敵するか、それを上回るパフォーマンスを、幅広いベンチマークで実現します。Gemini 1.5 Proの長コンテキスト能力の限界を研究すると、次のトークンの予測の継続的な改善と、少なくとも1000万トークンまでのほぼ完璧な回収(>99%)を見つけ、これはClaude2.1(200000)やGPT-4 Turbo(128000)などの既存のモデルを大きく上回る世代の飛躍です。最後に、大規模言語モデルの最前線での驚くべき新たな能力を強調します。世界中で200人未満の話者しかいない言語であるカラマン語の文法マニュアルが与えられた時、モデルは同じコンテンツから学習する人と同様のレベルで英語からカラマン語への翻訳を学習する能力を持っています。 1. 導入
Geminiラインからの最新のマルチモーダルモデルであるGemini 1.5 Proを紹介します。これは、Gemini 1.5からの最初のリリースであり、新しい専門家の混合アーキテクチャを取り入れ、トレーニングと提供インフラの主要な進歩を実現することで、効率、推論、および長コンテキストのパフォーマンスの境界を押し広げることができる、非常に能力の高いマルチモーダルモデルの新しいファミリーです。Gemini 1.5 Proは、非常に長いコンテキストを処理するように構築されており、少なくとも1000万トークンからの細かな情報を回収し、推論する能力を持っています。この規模は、現代の大規模言語モデル(LLM)の中では前例のないものであり、文書の完全なコレクション、複数時間のビデオ、ほぼ一日分のオーディオを含む長形式の混合モダリティ入力の処理を可能にします。Gemini 1.5 ProはGemini 1.0 Proを超え、広範なベンチマーク配列で1.0 Ultraと同様のレベルで実行し、トレーニングに必要な計算を大幅に削減します。 ますます長いコンテキストのデータをモデル化する能力は、より一般的で能力のある言語モデルの開発に伴って追跡されてきました。Shannon(1948)によって提案された今ではおもちゃのような2-gram言語モデルから、1990年代と2000年代の現代のn-gramモデルは通常、コンテキストの5トークンに制約されていますが、2010年代の再帰的ニューラルネットワーク言語モデルは、数百のトークンに効果的に条件付けることができました、現代のTransformerは、数十万のトークンに条件付けることができます(Anthropic, 2023)。Gemini 1.5 Proは、この傾向を継続し、言語モデルのコンテキストの長さを一桁以上拡大します。数百万トークンにスケーリングすることで、予測パフォーマンスの継続的な改善(セクション【4.2.1.1】)、合成リトリーバルタスクでのほぼ完璧なリコール(>99%)(Figure 1およびセクション【4.2.1.2】)、および完全な長文書からのICL(コンテキスト内学習: In Context Learning)のような驚くべき新しい能力のホストを見つけます(セクション【4.2.1.6】)。 https://scrapbox.io/files/65d1657eca04b600244a9fbc.png
私たちのモデルの長コンテキスト能力の効果を測定するために、合成および現実世界のタスクの両方で実験を実施します。Kamradt(2023)に触発された合成の「needle in a haystack」タスクでは、モデルが distractor コンテキストの中で情報をどれだけ信頼性を持って回収できるかを調査し、Gemini 1.5 Proがすべてのモダリティで、「干し草」の数百万トークンの中で「針」のリコールを99%以上で達成し、テキストモダリティを1000万トークンまで拡張してもこのリコールパフォーマンスを維持していることがわかります。より現実的なマルチモーダル長コンテキストベンチマークでは、コンテキストの複数の部分を回収し、推論することを要求される(長文書や長ビデオからの質問に答えるなど)場合にも、Gemini 1.5 Proが外部のリトリーバル方法で拡張されたすべての競合モデルをすべてのモダリティで上回っていることがわかります。 最後に、非常に長いコンテキストによって可能になったGemini 1.5 ProのICL(コンテキスト内学習: In Context Learning)能力を定性的に紹介します。たとえば、単一の言語文書セットから新しい言語を翻訳する学習です。指導教材(言語文書500ページ、辞書、および約400の平行文)すべてがコンテキストで提供されるだけで、Gemini 1.5 Proはインドネシアのパプア東部の西ニューギニアに住む200人未満の話者しかいないカラマン語から英語への翻訳を学習することができます。そして、その翻訳の品質は、同じ教材から学んだ人のものと比較しても遜色ありません。 この長文コンテキスト性能の飛躍は、モデルのコアマルチモーダル能力を犠牲にすることなく達成されました。全体的に、Gemini 1.5 ProはGemini 1.0 Proを大きく上回り、大多数のベンチマーク(すなわち、27/31)でより良いパフォーマンスを示し、特に数学、科学、推論(+28.9%)、多言語性(+22.3%)、ビデオ理解(+11.2%)、コード(+8.9%)でのマージンを増加させています(内訳については表7を参照)。しかし、より顕著な比較は、多くの能力において最先端のモデルであるGemini 1.0 Ultraとの比較です。Gemini 1.5 Proは、はるかに少ないトレーニング計算を使用し、提供する上でより効率的であるにもかかわらず、ベンチマークの半数以上(16/31)でより良いパフォーマンスを示し、特にテキストベンチマーク(10/13)と多くのビジョンベンチマーク(6/13)でそうでした。
以下のセクションでは、モデルアーキテクチャの概要を提供し、Gemini 1.5 Proを他のLLMと比較した大規模定量評価の結果を提示します。モデルの長文コンテキスト能力に関する詳細な評価に続き、Gemini 1.0の技術レポート(Gemini-Team et al., 2023)に類似して、テキスト、コード、画像、ビデオ、オーディオを含む幅広いベンチマークでのコア能力の評価を行います。最後に、影響評価の開発、モデルポリシー、評価、および展開決定前の害の軽減についてのアプローチを含む、責任ある展開に向けたアプローチについて議論します。
2. モデルアーキテクチャ
Gemini 1.5 Proは、Gemini 1.0の研究進歩とマルチモーダル能力に基づいて構築された、スパース専門家の混合(MoE)ベースのTransformerモデルです。Gemini 1.5 Proはまた、GoogleでのMoE研究のはるかに長い歴史およびより広い文献での言語モデル研究にも基づいています。MoEモデルは、学習されたルーティング機能を使用して入力をモデルのパラメーターのサブセットに向けて処理します。この条件付き計算の形式(Bengio et al., 2013;Davis and Arel, 2014; Jacobs et al., 1991)により、モデルは総パラメーター数を増やしながら、任意の入力に対してアクティブになるパラメーターの数を一定に保つことができます。 モデルスタック全体(アーキテクチャ、データ、最適化、システム)にわたって行われた一連の改善により、Gemini 1.5 Proは、はるかに少ないトレーニング計算を使用し、提供する上で大幅に効率的であるにもかかわらず、Gemini 1.0 Ultraと同等の品質を達成することができます(セクション5を参照)。Gemini 1.5 Proはまた、パフォーマンスを低下させることなく、最大1000万トークンまでの入力の長文コンテキスト理解を可能にする、重要なアーキテクチャ変更のシリーズを組み込んでいます。実際のデータに翻訳すると、このコンテキストの長さにより、Gemini 1.5 Proモデルは、オーディオ録音のほぼ1日(すなわち、22時間)、1440ページの本(または587287語)「戦争と平和」の全体の10倍以上、Flaxコードベース全体(41070行のコード)、または1秒間に1フレームのビデオ3時間を快適に処理することができます。さらに、モデルはネイティブにマルチモーダルであり、異なるモダリティからのデータのインターリービングをサポートしているため、同じ入力シーケンスでオーディオ、ビジュアル、テキスト、コード入力のミックスをサポートできます。セクション【4.1】では、これらの進歩によって可能になった新しい能力をいくつか強調し、1000万までのコンテキストの長さで肯定的な結果をもたらした評価を含めます。これらの能力の限界を理解し、その興奮する能力とアプリケーションを研究することは、引き続き研究探求の領域です。
3. トレーニングインフラストラクチャとデータセット
Gemini 1.0 Ultraおよび1.0 Proと同様に、Gemini 1.5 Proは、複数のデータセンターに分散されたGoogleのTPUv4アクセラレーターの4096チップポッドでトレーニングされ、多様なマルチモーダルおよび多言語データでトレーニングされています。私たちの事前トレーニングデータセットには、Webドキュメントやコードを含む多様なドメインからのデータが含まれており、画像、オーディオ、ビデオコンテンツを組み込んでいます。インストラクションチューニングフェーズでは、Gemini 1.5 Proをマルチモーダルデータのコレクション(指示と適切な応答がペアになっている)でファインチューニングし、さらに人間の好みのデータに基づいてチューニングしました。さらなる情報については、Gemini 1.0の技術レポート(Gemini-Team et al., 2023)を参照してください。 4. 長文コンテキスト評価
大規模マルチモーダルモデルの新しく急速に進歩する能力により、既存の評価はますます負担が増しています。これらは通常、個々のモダリティに焦点を当て、またはより短いコンテキストの長さのタスクに限定されています。したがって、現実世界の長い混合モダリティの使用例のニュアンスのある要件を示すベンチマークの必要性が高まっています。これらの中で、長い混合モダリティシーケンスを横断する推論能力の定量的評価を重要な課題として強調します。
ますます能力のあるモデルを評価する課題を念頭に置いて、Gemini 1.5 Proの評価はまず、その新しい能力を理解し、評価することに焦点を当てます。その後、Gemini 1.0の技術レポート(Gemini-Team et al., 2023)で研究された能力をカバーするコアベンチマークを探求します。具体的には、Gemini 1.5 Proを3つの主要なカテゴリーで評価します:
1. 定性的な長文コンテキストマルチモーダル評価:定量的なベンチマークが存在しない新しい能力について、モデルの長文コンテキスト能力を手動で探り、ストレステストを行います。
2. 定量的な長文コンテキストマルチモーダル評価:定義されたメトリクスを使用して、合成および現実世界のタスクの両方でモデルの長文コンテキスト能力を測定します。
3. 定量的なコア評価:コア能力(例えば、コーディング、数学、科学、多言語性、指示に従うこと)の進歩と後退を特定します。
4.1. マルチモーダル長文コンテキスト能力の定性的な例
数百万トークンを処理する能力は、以前には不可能だった実用的なアプリケーションを解き放ちます。このセクションでは、コード、テキスト、ビデオを通じてGemini 1.5 Proとのいくつかの驚くべき相互作用を示します。
Figure 2に示すように、Gemini 1.5 ProはJAX(746152トークン)などの大規模なコードベース全体を摂取し、それに関する非常に具体的なクエリに答えることができます。
https://scrapbox.io/files/65d17d73a561420025267bc5.png
Figure 3では、Gemini 1.5 Proが入力で与えられた参考資料のみに基づいて新しい言語を学習する能力を示しています(この使用例の定量的指標についてはセクション【4.2.1.7】を参照)。
さらに、「レ・ミゼラブル」の全テキストを与えられた画像クエリにGemini 1.5 Proがどのように答えるかをテストし、ネイティブにマルチモーダルであることがそれが手描きスケッチから有名なシーンを特定するのを可能にすることを観察します、Figure 4に示されています。
https://scrapbox.io/files/65d18c63acc80900264124cb.png
最後に、Figure 5で45分間の映画全体についてGemini 1.5 Proに質問し、モデルが瞬間とタイムスタンプを秒単位で取得しながらシームレスに答えることを尋ねます。
4.2. 長文コンテキスト評価
ここ数年、LLM研究はモデルが情報を取り込むことができるコンテキストウィンドウを拡大することを優先してきました。この重点は、より広いコンテキストウィンドウがモデルに推論時にトレーニングデータにない新しい、タスク固有の情報をより多く取り込むことを可能にし、さまざまな自然言語またはマルチモーダルタスクでのパフォーマンスを向上させるという認識に基づいています。モデルの長文コンテキスト能力を向上させるための最近のアプローチには、新しいアーキテクチャアプローチ、トレーニング後の修正、検索拡張モデル、メモリ拡張モデル、より一貫性のある長文コンテキストデータセットを構築するための技術(Shi et al., 2023c; Staniszewski et al., 2023)が含まれます。この活動は、過去数ヶ月間にLLMの長文コンテキスト能力に測定可能な改善をもたらし、最近のLiu et al. (2024)の同時作業では7Bモデルのコンテキストウィンドウを100万マルチモーダルトークンまで探索しています。特に、最先端のLLMの中で、AnthropicはテキストのみのClaude 2モデルのコンテキストを1000Kトークンまで拡張することに成功し、OpenAIは最近128Kトークンに達するGPT-4 Turboをリリースしました。最新の追加は、2000Kトークンのコンテキストウィンドウを持つClaude 2.1でした。 Gemini 1.5 Proは、このコンテキストの長さのフロンティアを数百万トークンまで大幅に拡張し、ほとんどパフォーマンスの劣化なしにはるかに大きな入力を処理することが可能になりました。2000Kトークンのコンテキストウィンドウを持つClaude 2.1と比較して、Gemini 1.5 Proは200000トークンで100%のリコールを達成し、Claude 2.1の98%を上回ります。この100%のリコールは530000トークンまで維持され、100万トークンでのリコールは99.7%です。100万トークンから1000万トークンに増やすと、モデルは99.2%のリコールを維持します。さらに、Gemini 1.5 Proのネイティブマルチモーダル能力により、モデルはテキストと交互またはインターリーブされた複数時間のオーディオおよびビデオ録音を取り込むことができます。このようなリコール能力はFigure 1に要約されています。以下では、テキスト、ビジョン、オーディオのすべての3つのモダリティにわたる長文コンテキスト評価の結果を報告します。
Gemini 1.5 Proの長文コンテキスト能力を測定するために私たちが従った評価方法論は、長文コンテキスト能力の診断に焦点を当てたプロービング(例えば、長いシーケンス上のパープレキシティ、針を探すリトリーバル研究)と、マルチモーダル長文コンテキストタスク(例えば、長文QA、長文コンテキスト自動音声認識、1冊の本から新しい言語を翻訳する学習、長文コンテキストビデオQA)のために特別に設計された現実的な評価を含みます。参考点として、このセクション全体で、各タスクで外部に利用可能な主要モデルとGemini 1.5 Proを比較します。Gemini 1.5 Proのために開発した評価ハーネスを使用することで、1000万トークンまでの長文コンテキスト理解能力の品質を信頼性を持って定量化することができます。
翻訳性能
Gemini 1.5 Pro、GPT-4 Turbo、Claude 2.1は、0ショット設定(つまり、コンテキスト内に追加のKalamang情報がない)で本質的にランダムなパフォーマンスを持っています。Gemini 1.5 Proはkgv→engで0.24の人間の評価スコアを達成し、eng→kgvで0.08です。時々、固有名詞を正確にコピーしたり、マレー語のような高リソース言語からの借用語を特定したり、疑問符のようなスタイルの手がかりを使用して生成を絞り込むことに成功しています。eng→kgvの生成は、Google翻訳によって様々な他の言語として特定され、しばしば不正確です。これらの結果は、予想通り、モデルのトレーニングデータには実質的にKalamangデータが含まれていなかったことを示しています。
https://scrapbox.io/files/65d187f730c4730024737e82.png
半分の本の設定で、Gemini 1.5 Proは同じセットアップのGPT-4 TurboとClaude 2.1を大きく上回り、コンテキスト内に全ての本が与えられた場合にさらなる利得があります。全本の設定では、Gemini 1.5 Proはkgv→eng翻訳で4.36の人間の評価スコアを達成し、「人間の言語学習者」のスコアに対して5.52、eng→kgv翻訳で5.52を達成し、「人間の言語学習者」による5.58と比較しています。kgv→eng翻訳にはまだ顕著な質的なギャップがありますが、eng→kgv翻訳は平均して人間の言語学習者に似ています。
人間の評価スコアについては表2、質的な翻訳例については表3を参照し、詳細、実験、例については付録8.7を参照してください。
https://scrapbox.io/files/65d189b5c695380025e25366.png
5. コア能力の評価
Gemini 1.5 Proの評価ハーネスの最終成分は、モデルのコア能力(つまり、長いコンテキストのタスク以外のパフォーマンス)の品質を測定します。このセクションの評価は、公開され、コミュニティによって使用される確立されたベンチマークと、公開されていない内部ベンチマークで構成されており、テキスト、ビジョン、オーディオの全3つのモダリティをカバーしています。
我々の選択基準は、主にGemini 1.5 Proがその前身、Gemini 1.0シリーズのモデル、Gemini 1.0 ProおよびGemini 1.0 Ultraと比較してどの程度改善されたかを測定することを目的としています。私たちの目標は、長いコンテキストの能力に優れる1.5世代のGeminiモデルと、長いコンテキスト以外のタスクのパフォーマンスの間に存在するトレードオフの程度を強調することです。特に、1.5シリーズを開発するにあたって、我々は、他のすべての能力を損なうことなく、この新しい多モーダル長いコンテキストの次元でのモデルの習熟度を高めることを目指しています。
全体として、1.0シリーズと1.5シリーズの間には明確な世代間の改善が見られ、Gemini 1.5 Proは一貫して1.0 Proを上回り、多くのベンチマークで最先端のモデルである1.0 Ultraに迫り(しばしば超える)、訓練するのにはるかに効率的です。
5.1. コアテキスト評価
我々は、3つの主要なコアテキスト能力について比較を開始します:(1) 数学、科学、推論;(2) コーディング;(3) 多言語性;そして (4) 命令に従う能力。これらの結果の要約については、表8を参照してください。
5.1.1. 推論、数学、科学
1.5 Proは、小学校の数学(つまり、GSM8K)で一貫して1.0 Ultraおよび1.0 Proを上回り、さらに改善の余地があるより要求の厳しいベンチマークで、中学校および高校の数学問題(つまり、Hendrycks MATH)で1.0 Ultraに対して+3.5%、アメリカ数学コンペ(つまり、AMC)で+7.2%の素材改善を示しました。推論タスクでは、1.5 Proは1.0 Proに大きな差をつけ、1.0 Ultraと比較してやや劣るパフォーマンスをDROPで示し、BBHでわずかに上回りました。Gemini 1.5 Proはまた、複数選択のプロンプトを使用してHellaswagで1.0 Ultraを大幅に上回り、1.5 Proの命令調整が推論中に利用できるようになります(付録8.6を参照)。最後に、一般的な科学知識を測定する難しいMMLUベンチマークでは、1.5 Proは1.0 Proを大きく上回り、さらに1.0 Ultraに−1.8%の差で迫ります。
5.1.2. コード
Gemini 1.5 Proは、これまでで最高のパフォーマンスを示すモデルであり、ウェブリークを防ぐために作成された内部の保持コード生成テストセットであるNatural2CodeでGemini 1.0 Ultraを上回りました。
5.1.2.1 HumanEvalのリーク
HumanEvalは業界標準のオープンソース評価ベンチマーク(Chen et al., 2021)ですが、ウェブページやオープンソースコードリポジトリでの偶発的なリークを制御することは、保守的なフィルタリングヒューリスティックを使用しても簡単なタスクではありませんでした。Gemini 1.0 Ultraのテストデータリークの分析は、HumanEvalのテストスプリットのたった1エポックを含むデータセットでの継続的なプリトレーニングが、スコアを74.4%から89.0%に向上させることを示し、データ汚染の危険性を浮き彫りにしました。この急激な増加は、例が余分な形式(例えば、JSON、HTML)に埋め込まれていても持続しました。これらのモデルのコーディング能力を直接比較する研究者には、常に真に保持されたテスト関数の小さなセットを社内で書くことを維持し、リークのリスクを最小限に抑えるように求めます。Gemini 1.0シリーズのモデルの評価に発表され使用されたNatural2Codeベンチマークは、このギャップを埋めるために作成されました。これはHumanEvalと全く同じフォーマットに従いますが、異なるプロンプトとテストのセットを持っています。 5.1.3. 多言語性
多言語評価には、多言語数学推論(MGSM; Shi et al., 2023a)ベンチマークと、モデルのトレーニングデータのカットオフ後に構築された機械翻訳ベンチマーク(WMT23; Kocmi et al., 2023)を使用します。これにより、テストセットのリークリスクが最小限に抑えられます。これらは、異なる言語ファミリーとリソースグループからの多様な言語をカバーしており、MGSMは11言語、WMTは23では8言語で、合計で14言語ペアをカバーしています。我々は、Gemini 1.5 Proが両方のタスクでGemini 1.0 Ultraを上回り、特にMGSMデータセットでほぼ+10%の大幅な改善を示し、上述の英語のみの数学の改善と一致していることを発見しました。興味深いことに、これらの改善は特定のリソースグループに限定されているわけではなく、1.5 Proは異なるリソースを持つ言語間で同等にパフォーマンスを向上させています。例えば、中間および低リソース言語では、1.0 Ultraと1.5 Proの間のギャップがそれぞれ9.5と7.6に増加します。 5.2. コアビジョン多モーダル評価
画像タスクにおけるマルチモーダルパフォーマンスを評価するために、私たちは8つの画像理解ベンチマークと5つのビデオ理解ベンチマークの結果を報告します。表10が結果を示しています。私たちは、Gemini 1.5 Proがそのうちの5つでGemini 1.0 Proを大幅に改善し、全てのマルチモーダル推論ベンチマーク(すなわち、MMMU、MathVista、ChartQA、AI2D)で、2つ(すなわち、AI2DとChartQA)でGemini 1.0 Ultraに匹敵するか、それを超えることを発見しました。残りの3つでは強力なOCR能力が求められるため、1.5 Proは1.0 Proを超えることはありませんが、近づくことが見られます。Gemini1.5 Proのこれらのタスクにおけるパフォーマンスに対するエラー分析は、多くの偽陰性を明らかにし、したがってモデルの真のパフォーマンスの下限を示しています。そのため、将来の研究では、特に指示に基づくモデルを評価する際には、これらのデータセットに対して人間の評価にもっと依存し、厳密な文字列マッチングから逸脱するより柔軟な指標の開発に焦点を当てるべきです。 ビデオ理解に目を向けると、Gemini 1.5 Proは、テストされた全ての数分間のビデオにおいて質問応答データセットでGemini1.0 Ultraを上回るパフォーマンスを発揮しています(すなわち、ActivityNet-QAとEgoSchema)。ビデオキャプショニングベンチマークにおいても同様の結果が見られ、Gemini1.5 ProはYouCook2でのパフォーマンスを一致させ、VATEXとその中国語版のVATEX ZHでは1.0 Ultraを超えることさえありました。
(以下省略)